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摘 要 : 针对 PAD(pleasure: 愉悦 度 、arousal: 激活 度 、dominance: 优势 度 ) 预 测 精度 问题 ， 提 出 将 最 小 二 来 支持 向 
量 机 (least squares support vector machine, LSSVM) 经 粒子 群 优化 (particle swarm optimization, PSO) 算 法 优化 再 与 情感 
聚 类 分 析 结 合 的 聚 类 PSO-LSSVM 模型 。 对 TYUT2.0 和 柏林 语音 库 的 三 种 情感 语音 提取 情感 特征 , 基于 特征 与 标注 
的 P.A、D 对 三 种 单一 情感 分 别 建立 各 类 情感 维度 PSO-LSSVM 模型 以 及 对 三 种 情感 建立 混合 情感 维度 PSO-LSSVM 
模型 ; 然后 利用 混合 情感 维度 PSO-LSSVM 模型 预测 P、A、D， 并 计算 其 与 基本 情感 PAD 的 距离 ; 最 后 将 距离 大 
于 阔 值 的 情感 聚 类 为 混合 情感 ， 将 距离 小 于 阔 值 的 情感 聚 类 为 与 其 距离 最 近 的 情感 ， 并 利用 对 应 情感 的 回归 模型 预 
测 其 P、A、D。 研 究 显 示 ， 该 模型 对 P、A、D 的 预测 误差 较 LSSVM 和 PSO-LSSVM 模型 更 小 ， 且 预测 值 与 标注 
值 的 相关 性 更 强 ， 说 明 聚 类 PSO-LSSVM 模型 对 P、A、D 的 预测 更 加 可 靠 、 准 确 。 

关键 词 : 情感 维度 PAD; 最 小 二 来 支持 向 量 机 ; 粒子 群 优化 算法 ; 情感 聚 类 分 析 
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Forecast of pad dimensions using clustering pso-lssvm model 


Hu Yanxiang, Sun Ying , Zhang Xueying, Duan Shufei 
(College of Information & Computer, Taiyuan University of Technology, Taiyuan 030024, China) 


Abstract: In view of the imprecision problem for PAD(Pleasure、Arousal、Dominance) prediction, this paper proposed 
clustering PSO-LSSVM model combineing Least Squares Support Vector Machine(LSSVM) optimized by Particle Swarm 
(2 Optimization(PSO) and affective clustering analysis. Firstly, selecting three emotion speeches of TYUT2.0 emotional 
speech database and Berlin voice library, and extracting emotion features. Establishing Single emotional dimension 
PSO-LSSVM models for three single emotion and the mixed emotion dimension PSO-LSSVM model for three emotions 
based on emotion features and P, A and D values. The mothod used mixed emotion dimension PSO-LSSVM model to 
predict the P, A and D values of the test set, and calculated the distance between the predictive PAD and the PAD of the 
basic emotion. Finally clustering the emotion whose distance is greater than the threshold into mixed emotion, and 
clustering the emotion whose distance is less than the threshold into the nearest emotions, then using the corresponding 
emotional dimension regression model to predict its P, A and D. The research showed that the predictive error of clustering 
PSO-LSSVM regression model to P, A and D was smaller than that of LSSVM and PSO-LSSVM model, and the correlation 
between the predicted value and the tagged value was stronger. So the clustering PSO-LSSVM regression model is more 
reliable and accurate in predicting P, A and D values. 

Key words: emotional dimensions pad; least squares Support vector machine; particle Swarm optimization algorithm; 


affective clustering analysis 


0 引言 效 解决 小 样本 、 非 线性 等 复杂 系统 问题 ， 但 需要 求解 二 次 规 
本 划 方 程 ,计算 复杂 性 较 大 。 最 小 二 乘 支持 向 量 机 (least squares 
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情感 计算 对 于 成 熟 的 人 工 智能 发 展 是 不 可 或 缺 的 ， 情 感 ” support vector machine,LSSVMJ) 册 通过 等 式 约 束 对 SVM 进行 
维度 从 情感 的 心理 学 属性 对 情感 进行 描述 ， 在 情感 计算 帆 方 改进 ， 同 时 参数 选择 优化 方法 即 粒 子 群 优化 (particle swarm 
面具 有 重要 意义 。 随 着 人 机 交互 的 智能 化 发 展 ， 离 散 情 感 已 optimization，PSO) 算 法 喇 的 引入 使 其 建 模 过 程 中 的 参数 选择 
经 难以 满足 生活 化 的 自然 情感 识别 ， 因 此 研究 草 涵 情感 信息 “更 为 客观 。PSO-LSSVM 算法 目前 主要 应 用 于 太阳 能 温室 温 
的 连续 情感 维度 就 显得 尤为 重要 ， 鉴 于 情感 维度 难以 实时 监 ” 度 预 测 中、 节 流 液 速 预测 中 等 方面 ， 尚 未 见 有 资料 将 其 应 用 
测 的 特点 ， 决 定 了 要 通过 建立 数学 模型 来 进行 维度 预测 ， 而 于 情感 维度 预测 。 但 是 不 同情 感 的 情感 特征 之 间 错 综 复 杂 的 
对 数据 进行 模拟 与 拟 合 是 进行 有 效 预 测 的 主要 手段 口 相互 作用 容易 影响 PSO-LSSVM 回归 模型 对 情感 维度 的 预测 


人 工 智 能 预测 方法 主要 包括 神经 网 络 和 支持 向 量 机 。 精度 ， 因 此 在 该 回归 模型 中 引入 情感 聚 类 分 析 以 降低 不 同情 
神经 网 络 所 需 数 据 样本 大 ， 在 小 样本 的 情感 语音 中 无 法 保 订 感情 感 特征 之 间 的 影响 是 必要 的 。 本 文 提出 根据 
预测 精度 。 支 持 向 量 机 (support vector machines, SVM)B 可 有 ”PSO-LSSVM 模型 的 初次 预测 结果 与 基本 情感 中 心 PAD 的 距 
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PSO-LSSVM 回归 模型 进行 二 次 维 


离 进行 聚 类 处 理 ， 再 采用 
度 预 测 。 
本 文 以 PAD 三 维 情 感 模 型 中 为 基础 ,首先 提取 情感 语音 
的 情感 特征 ;然后 分 别 采 用 三 组 回归 模型 : LSSVM 回归 模 


胡 艳 香 ， 等 : 基于 聚 类 PSO-LSSVM 模型 的 PAD 维度 预测 


的 样本 x， 


min J(w,e)= 2 ww+t3 Ce 
i=l 


st. 


有 .OH 


型 、PSO-LSSVM 回归 模型 、 聚 类 PSO-LSSVM 回归 模型 建 
立 语音 的 情感 特征 (韵律 特征 、MFCC 特征 和 非 线性 特征 ) 与 
人 工 标注 P、A、D 值 的 映射 关系 , 实现 对 情感 语句 的 P、A、 
D 值 预测 ， 最 后 对 三 类 回归 模型 的 预测 结果 进行 比较 分 析 ， 


求解 以 上 优化 问题 ， 


实验 结果 表明 聚 类 PSO-LSSVM 回归 模型 对 P、A、D 值 的 预 


测 精度 更 高 。 
1 ”PAD 三 维 情 感 模型 


日 常生 活 中 人 类 的 情感 比较 微妙 和 复杂 ， 如 翡 喜 交加 、 
喜 极 而 注 等 情感 不 完全 属于 某 一 基本 情感 类 别 ， 故 提出 情感 
的 连续 空间 论 急 来 解决 该 问题 。 该 理论 认为 人 类 的 情感 由 妆 
闻 的 几 个 维度 组 成 ， 该 空间 几乎 可 以 涵盖 人 类 所 有 的 情感 ， 

不 同情 感 可 以 实现 连续 、 平 稳 地 转变 。 连 续 情 感 模型 中 较为 
型 的 是 PAD 三 维 情感 模型 ， 该 模型 由 UCLA 大 学 的 
MEHRABIAN 开发 由 ,采用 语义 差异 评价 方法 将 情感 分 为 三 
个 维度 ,分 别 为 P 代表 愉悦 度 (pleasure-displeasure， 表 示 个 
体 情 感 状态 的 正 负 特 性 )、A 代表 激活 度 (arousal-nonarousal， 


网 


y= WT ; a 


核 函 数 矩 阵 ，KG5,*)= (Ww @(%)i,j=1,2…,n 。 本 文 实验 采用 
径 向 基 (RBF) 核 函数 ， 


EA 


ps 
K(x, Xx;) = exp( 5 


[en 


中 : Cc 为 正则 化 参数 ; 


7Z=L1… 下 为 na 个 1 组 成 的 向 量 ， 
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ywWq(x) -5s<e ， 则 LSSVM 的 优化 问题 为 


(1) 
y=w Oe) +b+e, (=1,2,...,n) 

e eR 为 误差 变量 。 用 Lagrange 法 
转换 为 以 下 线性 问题 : 


上 gsc O) 
为 n 阶 单位 矩阵 ; 
K 为 


=[Q,0,…,0 了 为 lagrange 乘 子 向 量 ; 


5 是 核 函 数 宽度 ，RBF 核 函数 为 


) 。 


最 后 得 到 LSSVM 模型 ; 


在 LSSVM 模 


出 ， 在 本 文 研究 中 ，x 代表 语音 情感 特征 ， 


yO =D akGon)+b G) 
型 中 ，x 表示 模 型 输入 ， CoD 表示 模型 输 


y(%) 表示 语音 情 


感 维度 值 。 根 据 LSSVM 的 回归 原理 可 知 ， 有 两 类 参数 的 选 
择 是 需要 特别 关注 的 ， 即 正则 化 参数 Cc 和 核 参数 c 。 为 减少 


表示 个 体 的 神经 生理 激活 程度 ) 和 D 代表 优势 度 

(Cdominance-submissiveness， 表 示 个 体 对 情境 和 他 人 的 控 甫 
状态 ) 。PAD 三 维 情感 模型 从 P、A、D 三 个 角度 对 情感 进 
行 描述 ， 便 于 量化 日 常生 活 中 连续 、 多 样 的 情感 。PAD 三 维 
情感 模型 如 图 1 所 示 。 


二 


Dominance 


Pleasure 


图 1 PAD 三 维 情感 模型 
Fig. 1 


2 “理论 基础 


2.1 最 小 二 乘 支 持 向 量 机 理论 
LSSVM 算法 外 的 基础 是 支持 向 量 机 (support vector 


PAD dimensions model 


对 两 类 参数 主观 选 


择 的 盲目 性 ， 本 文采 用 粒子 群 优化 的 方法 


来 选取 LSSVM 的 正则 化 参数 Cc 和 核 参数 。 
2.2 ”粒子 群 优化 算法 
PSO 算法 中 是 一 种 基于 群体 智能 的 优化 计算 方法 。 该 算 


而 得 到 最 优 解 。 
PSO 算法 中 ， 


P: = (pa, Pia,***, Din) 表示 第 i 个 粒子 经 历 过 的 最 好 位 


法 在 对 飞鸟 集群 行为 观察 的 基础 上 ， 利 用 群体 中 的 个 体 对 信 
息 的 共享 ， 实 现 整 个 群体 从 无 序 到 有 序 的 演化 运动 过 程 ， 从 


Ui = (Ui Wis Uin ) 表示 粒子 i 的 立 置 向 量 ， 
LL ， 每 个 粒 


子 的 速度 向 量 表示 
过 的 最 好 位 置 为 p。 
公式 如 下 : 
vk 过 
村 = 


其中 


i 和 是 [0 之 间 的 随机 数 ; 
衡 算法 的 全 局 搜索 能 
我 学 习 因 子 和 社会 学 习 因 子 。 


为 “=Ooyww) ， 种 群 中 所 有 粒子 经 历 
=(poo popo) ,粒子 i 的 速度 、 位 置 更 新 


大 k 大 
wy + Cn (Pin — Uh )+ Cp (Pon —uk) 


(4) 


w 是 惯性 权重 ， 可 以 平 
以 及 局 部 搜索 能 力 ; ca 和 分 别 是 自 


k kl 
Uin + Vin 


2.3 基于 PSO 优化 的 LSSVM 回归 模型 


定义 目标 函数 : 


min f(C,0) = 0 
i=] 
Si. 


machine,SVM)。SVM 将 输入 的 数据 通过 非 线 性 映射 方式 映 
射 到 高 维特 征 空 间 ， 将 问题 转换 为 一 个 由 不 等 式 约束 的 二 次 
规划 问题 ， 但 其 计算 复杂 度 较 大 ， 故 将 最 小 二 乘 线 性 理论 引 
入 到 SVM 中 进行 改进 ， 使 得 传统 的 二 次 规划 问题 转换 为 求 
解 线性 方程 组 问题 ， 降 低 计算 的 复杂 度 。LSSVM 算法 基本 


索 一 组 参数 (C,o)， 


(5) 


C [Crin Ciax ],o € [Oin, Omax ] 


其 中 :yy 是 第 i 个 情感 样本 的 P、A、D 维度 标注 值 ， ,是 
模型 对 样本 的 P、A、D 预测 输出 值 ， 可 
PSO 算法 优化 LSSVM 模型 的 


式 (3) 计 算得 到 。 
标 是 通过 一 系列 迭代 算法 搜 


使 目标 函数 式 (5)， 即 情感 维度 的 主观 标 


注 值 与 模型 对 维度 的 客观 预测 值 的 误差 达到 最 小 。 


原理 是 : 
设 定 样本 集 : 


min C,a)= /一 细 )” 
i f( )=20 $) 


SI1. C e[Cwin Cimax ,Oo E[Oiin, Oax] 
中， eR' 为 输入 变量 ， yeR 为 相应 的 输出 ， 为 样本 集 
的 大 小 ; oo 将 低 维 样本 映射 到 高 维特 征 空间 5 ,构造 最 优 
决策 函数 y=w "80)+b(w 是 权 向 量 ，5b 是 偏差 )。 对 于 外 输入 


2.4 情感 聚 类 分 析 


在 语音 情感 聚 类 中 ， 传 统 的 聚 类 方法 是 在 特征 空间 上 进 
了 聚 类 09， 这 种 聚 类 结果 产生 的 依据 是 语音 信号， 
的 聚 类 结果 未 必 与 情感 相关 。 针 对 语音 情感 聚 类 问题 ， 


~、 


然而 这 样 
本 文 


通过 
PAD 预测 值 与 基本 


通过 描述 连续 情感 的 情感 维度 进行 聚 类 ， 即 通过 语音 的 初步 


情感 中 心 PAD 值 的 距离 进行 情感 聚 类 。 


其 流程 如 图 2 所 示 。 
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i 其 中 : 也。、 了 了、 上 ,分别 为 情感 语音 的 P、A、D 预测 值 ; Zp、 
混合 可 归 模 型 能 i 
情感 语音 | 初步 预测 PAD 值 le 
ZA4、Zp 分 别 为 基本 情感 的 P、A、DD 值 。 
情感 中 心 NN fi 、 
PAD 值 情感 聚 类 分 析 将 通过 首次 对 语音 的 PAD 预测 值 与 基本 
情感 中 心 的 PAD 值 进行 距离 分 析 , 根据 距离 与 浆 值 的 关系 将 
图 2 情感 聚 类 分 析 流 程 语音 区 分 为 特定 的 单一 情感 和 混合 情感 ， 在 二 次 预测 时 将 语 
Fig.2 Flow chart of emotional clustering analysis 音 采 用 对 应 情感 的 PAD 回归 模型 进行 预测 。 
尽管 聚 类 算法 很 多 ， 如 -均值 聚 类 、 模 糊 聚 类 等 , 但 都 ”2.5 聚 类 PSO-LSSVM 回归 模型 
没有 可 以 直接 确定 聚 类 阔 值 的 方法 。 为 了 直观 地 确定 聚 类 阔 在 情感 语音 样本 中 ， 情 感 本 身 之 间 的 关联 性 使 不 同情 感 
值 , 国 值 的 确定 依据 情感 语音 的 PAD 初步 预测 值 与 基本 情感 ” 语音 的 情感 特征 之 间 也 存在 相关 性 , 在 预测 P、A、D 的 过 程 
的 欧 氏 距离 中 进行 取 值 。 欧 氏 距离 计算 表达 式 为 中 会 影响 回归 模型 的 预测 性 能 ， 因 此 提出 将 PSO-LSSVM 与 
en j (6) 情感 聚 类 分 析 相 结合 的 回归 方案 。 图 3 所 示 为 本 文 提 出 的 聚 
St ， pp —Zp) + (V4 —Za) + (Pp —zp) > 、 
ee 类 PSO-LSSVM 回归 模型 流程 。 
测 各 类 情感 维度 
试 >| PSO-LSSVM 
集 可 归 模型 
二 人 
语音 训 
情感 练 测试 集 
特征 集 A 测试 各 | 最 骆 巴 岗 
>| PSO-LSSVM + 的 预测 PAD 值 
司 归 模型 PAD 值 
人 工 训 y 
标注 练 混合 情感 维度 
PAD 值 集 中 PSO-LSSVM 上 
局 回归 模型 
情感 人 
中 心 
PAD 值 


图 3 聚 类 PSO-LSSVM 回归 模型 流程 
Fig.3 Flow chart of clustering PSO-LSSVM regression model 


具体 如 下 : 首先 对 情感 语音 提取 情感 特征 ， 基 于 训练 集 “模型 (模型 一 )、PSO-LSSVM 回归 模型 (模型 二 )、 聚 类 

的 情感 特征 和 标注 P、A、D 值 建立 两 类 回归 模型 ,一 类 称 为 PSO-LSSVM 回归 模型 (模型 三 ) 的 实验 结果 进行 对 比 。 实 验 流 
各 类 情感 维度 PSO-LSSVM 回归 模型 ， 此 模型 由 单 种 情感 语 ” 程 如 下 : 
音 的 情感 特征 与 人 工 标注 P、A、D 值 对 PSO-LSSVM 训练 得 a) 对 TYUT2.0 数据 库 情 感 语 音 提 取 情 感 特 征 ; 
到 ， 一 类 称 为 混合 情感 维度 PSO-LSSVM 回归 模型 ， 此 模型 b) 基 于 提取 的 情感 特征 和 人 工 标注 的 P、A、D 值 ， 利 用 

多 种 情感 语音 的 情感 特征 与 人 工 标注 P、A、D 值 对 三 组 回归 模型 (LSSVM，PSO-LSSVM， 聚 类 PSO-LSSVMD) 
PSO-LSSVM 训练 得 到 ; 然后 将 测试 集 的 语音 情感 特征 作为 。 预测 测试 集 的 情感 维度 P、A、DD; 
混合 情感 维度 PSO-LSSVM 模型 的 输入 变量 预测 得 到 PAD 值 ， c) 对 不 同 回归 模型 对 P、A、D 的 预测 结果 与 人 工 标 注 结 
并 计算 其 与 基本 情感 的 中 心 PAD 之 间 的 距离 , 基本 情感 的 中  ” 果 进 行 分 析 ， 选 择 更 加 合理 有 效 的 回归 模型 。 


心 PAD 由 对 各 类 情感 的 PAD 标注 结果 进行 模糊 C 均值 聚 类 ”3.2 实验 数据 
得 到 ， 将 距离 大 于 阔 值 的 情感 聚 类 为 混合 情感 ， 将 距离 小 于 3.2.1 数据 库 
阀 值 的 情感 聚 类 为 与 其 距离 最 小 的 情感 ， 最 后 将 聚 类 为 混合 情感 语音 数据 库 是 进行 语音 情感 分 析 的 重要 前 提 。 为 了 
情感 的 语音 情感 特征 作为 混合 情感 维度 PSO-LSSVM 回归 模 全面、 客观 地 评价 模型 对 P、A、D 的 预测 能 力 , 选用 TYUT2.0 
型 的 输入 变量 ， 该 模型 与 由 训练 集训 练 得 到 的 混合 情感 维度 ”中 文 情感 语音 数据 库 023 和 柏林 德语 情感 语料库 EMO-DB)D3 
PSO-LSSVM 回归 模型 是 同一 个 回归 模型 ， 而 将 聚 类 为 某 种 ”中 共有 的 情感 类 型 : 悲伤 (52 名)、 愤 怒 (57 句 ) 和 高 兴 (52 句 ) 
特定 情感 的 语音 的 情感 特征 作为 由 训练 集训 练 得 到 的 各 类 情 ”作为 实验 样本 , 其 中 67% 作 为 训练 样本 ,33% 作 为 测试 样本 。 
感 维度 PSO-LSSVM 模型 中 对 应 情感 的 模型 输入 变量 预测 其 数据 库 的 情感 语音 用 于 提取 特征 ， 并 将 情感 特征 和 每 名 语音 
PAD 值 , 该 过 程 使 得 测试 集 的 语音 通过 各 自 对 应 回归 模型 预 “对 应 的 PAD 值 用 于 训练 回归 模型 ， 根 据 每 句 语音 的 PAD 预 
测 其 PAD， 降低 了 不 同情 感 特征 间 的 相关 性 对 预测 效果 的 影 ” 测 值 与 基本 情感 的 PAD 进行 聚 类 分 析 。 

响 。 该 回归 模型 由 PSO 优化 的 LSSVM 与 聚 类 分 析 相 结合 ， TYUT2.0 情感 语音 公开 数据 库 是 通过 截取 广播 剧 的 方 
不 仅 避 免 了 回归 过 程 参数 选择 的 主观 盲目 性 ， 而 且 降 低 了 输 。 式 获得 的 一 种 摘 引 型 情感 数据 库 , 并 根据 改进 的 PAD 情感 量 
入 变量 之 间 的 相关 性 ， 可 以 对 情感 维度 P、A、D 实现 更 精确 。” 表 对 该 数据 库 的 语音 进行 维度 标注 , 得 到 每 句 语音 对 应 的 了 、 
的 预测 。 A、D 值 (可 联系 作者 邮件 获取 )。 


Ol 


ss 


3 ”实验 与 分 析 柏林 情感 语音 库 由 10 位 演员 对 7 种 情感 模拟 得 到 。 该 数 
人 据 库 的 语音 录制 要 求 演员 通过 回忆 自身 经 历来 完成 情绪 的 表 


3.1 实验 流程 达 ， 使 得 语音 情感 真实 度 高 、 使 用 度 较 广 、 代 表 性 较 强 。 
为 了 验证 聚 类 PSO-LSSVM 回归 模型 在 情感 维度 预测 的 3.2.2 语音 情感 特征 
有 效 性 ， 设 计 了 三 组 回归 模型 进行 对 比 ， 即 将 LSSVM 回归 为 对 语音 情感 进行 较 完整 的 表征 ， 并 实现 对 P、A、D 
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录用 定稿 


值 更 精确 地 预测 ， 选 取 的 特 笨 
表 1 语音 情感 特征 
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E 如 表 1 所 


To 


Emotional speech characteristics 


寺 征 


属性 特征 名 称 
MFCC MFCC 前 12 阶 的 偏 度 、 峰 度 、 均 值 、 方 差 、 中 值 
语 速 
平均 过 零 率 
前 健 其 1 阶 差分 的 最 大 值 、 最 小 值 、 均 值 
特征 基 频 及 其 1 阶 差分 的 最 大 值 、 最 小 值 、 均 值 
”和 负 展 峰 及 其 1 阶 差分 的 最 大 值 、 最 小 值 、 均 值 、 方 差 
入 峰 及 其 1 阶 差分 的 最 大 值 、 最 小 值 、 均 值 、 方 差 
入 展 峰 及 其 1 阶 差分 的 最 大 值 、 最 小 值 、 均 值 、 方 差 
Hurst 指数 的 最 大 值 、 最 小 值 、 均 值 、 中 值 、 方 差 
非 线 性 最 小 延迟 时 间 的 最 大 值 、 最 小 值 、 均 值 、 中 值 、 方 差 
特征 > 的 最 大 值 、 最 小 值 、 均 值 、 中 值 、 方 差 


Kolmogorov 拖 
最 大 Lyapunov 指数 的 


商 的 最 大 值 、 最 小 值 、 均 值 、 中 值 、 方 差 
多 值 、 中 值 、 方 差 


如 表 1 所 示 ， 本 实验 从 再 
号 的 短 时 3 


律 特 生 


了 保 记 
过 对 TYU 


E(38 旨 
[141(23 维 )， 将 它们 融合 后 ， 
3.3 聚 类 分 析 结果 
情感 聚 类 分 析 的 目的 是 
FE 情感 聚 类 距离 闵 值 的 
T2.0 数据 库 和 柏林 数据 库 1 
预测 值 与 基本 情感 的 PAD 进 
果 较 好 的 聚 类 距离 。 根 所 


个 角度 选择 特征 ， 针 对 语音 信 
F 稳 特性 提取 声学 特征 ， 即 MFCC 特征 (60 维 ) 和 韵 
E)， 以 及 针对 语音 的 混沌 特征 提取 非 线 性 特征 


得 到 121 维 


的 特征 外 


TI 
o 


取 值 不 受 


提高 对 语音 的 PAD 预测 精度 。 为 
一 数据 库 的 影响 ， 通 


丙 个 数据 库 的 语音 PAD 
行 聚 类 分 析 统 计 , 选择 使 聚 类 效 
昌 情 感 聚 类 距离 不 同 ， 不 同 聚 类 阔 值 


区 间 内 包含 的 情感 语音 数目 如 表 2 所 示 。 


不 同 聚 类 阐 值 区 间 内 的 语音 数 


Table 2 Number of speech in different cluster thresholds 


dist? TYUT2.0 数据 库 柏林 语音 库 
[0.0, 0.3] 3 10 
[0.3, 0.6] 5 8 
[0.6, 0.9] 4 10 
[0.9, 1.2] 4 5 
[1.2, 1.5] 4 2 
[1.5, 1.8] 3 2 
[1.8, 2.1] 2 1 
[2.1, 2.4] 4 3 
[2.4, 2.7] 6 0 
[2.7, 3.0] 1 0 
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一 标注 值 
4.5 模型 一 
一 
4 模型 三 
3.5|- 
茵 3 
2.5 
2|: 
1.5|- 5 
1 i 
0 10 
悲伤 


图 4 TYUT2.0 维度 P 的 预测 值 与 标注 
Fig.4 Comparison of predictive values and tagged values of P in 
TYUT2.0 database 


0 10 


悲伤 


愤怒 


TYUT2.0 database 


图 5 TYUT2.0 维度 A 的 预测 值 与 标注 


Comparison of predictive values and tagged values of in 


本 上 保持 一 致 ， 但 当 大 了 
甚至 在 柏林 语 


聚 类 虽 


于 [0, 1.8] 内 时 ， 


悲伤 她 
到 6 TYUT2.0 维度 D 的 预测 值 与 标注 值 对 比 


| 20 30 入 40 50 > 60 
局 季 RX 


Fig.6 Comparison of predictive values and tagged values of D in 


TYUT2.0 database 


从 图 4 可 以 看 出 ， 在 悲伤 和 愤怒 的 语音 中 ， 模 型 二 和 模 
型 三 的 预测 值 较 相 近 ， 且 相 比 模型 一 更 贴近 于 标注 的 P 值 ， 


而 在 高 兴 情 感 语音 9 


Ph， 模型 三 的 预测 结果 明显 比 其 他 两 组 模 


型 更 近 于 标注 的 P 值 分 布 ， 从 图 5 可 以 看 出 ， 模 型 二 和 模型 
三 预测 结果 的 变化 趋势 相 比 模型 一 更 贴近 于 标注 A 值 的 变化 


趋势 ， 且 模型 三 比 模型 二 的 预测 值 更 接近 于 标注 值 、 相 对 误 


表 2 中 两 个 数据 库 在 不 同 区 间 内 的 语音 数目 分 布 可 以 


类 数据 库 的 语音 站 


F 1.8 时 ， 语 音 分 布 数目 发 生起 伏 


E 离 阔 值 取 1.35。 
3.4 实验 结果 与 分 析 


FE 中， 没有 相应 的 语音 分 布 。 因 此 ， 本 文 的 


差 更 小 ， 可 知 相 比 于 其 他 两 组 回归 模型 ， 模 型 三 对 每 句 语 音 
的 A 值 预测 结果 更 为 准确 、 稳 定 ;， 从 图 6 可 以 看 出 ， 模 型 三 


对 三 种 情感 情感 名 


度 D 的 预测 结果 更 贴近 于 标注 值 , 尤其 在 


愤怒 和 高 兴 情 感 中 ， 模 型 三 预测 结果 离散 度 更 接近 于 实际 D 


值 的 离散 度 。 说 日 
测 结果 更 接近 于 P、A、D 标注 值 。 


模型 三 即 聚 类 PSO-LSSVM 回归 模型 的 预 


将 聚 类 PSO-LSSVM 回归 模型 与 LSSVM 回归 模型 、 


PSO-LSSVM 
注 值 的 数据 分 布 以 及 实验 | 


台 b 
Be /jo 


3.4.1 数据 分 布 

为 更 直 
据 分 布 ,以 对 TYUT2.0 数据 库 
分 别 为 回归 模型 对 P、A、D 给 


日 模型 的 预测 结果 相 比较 ， 根 据 预测 值 与 标 
性 能 指标 来 评价 对 P、A、D 的 预测 


观 地 比较 三 类 回归 模型 的 预测 结果 与 标注 值 的 数 
的 预测 结果 为 例 , 图 4~6 所 示 
E 度 的 预测 值 与 标注 值 的 对 比 。 


3.4.2 性 能 指标 对 比 


实验 性 能 指标 使 月 


hia 


平均 绝对 误差 (MAE) 及 模型 
(R?) 作 为 模型 的 评价 指标 ， 再 引入 Pearson 相关 系数 (站 评价 
模型 预测 值 与 标注 
接近 1 越 好 。 其 表达 式 分 别 为 


MAE = 工 > Gy WE yi)| 


决定 系数 


FE 值 的 变化 趋势 。 MAE 越 小 越 好 ，R? 和 + 越 


(7) 
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(8) 


(9) 


ChinaXiv 合 作 期 刊 


第 37 卷 第 4 期 


方式 不 同 有 关 ， 柏 林 语 音 库 是 基于 表演 而 录制 的 语音 库 ， 而 
TYUT2.0 是 通过 截取 广播 剧 的 方式 获得 。 虽 然 两 类 数据 库 在 


情感 表达 方 
对 P、A、D 乡 
[15] 对 P、A 预测 结果 相 比 较 ， 模 型 三 在 两 类 数据 库 中 对 
A 预测 的 决定 系数 分 别 高 于 文献 中 利用 KNN 对 P、A 维度 预 
测 模型 的 决定 系数 0.24 和 0.35 ,1 


有 


面 各 有 侧重 ， 使 得 预测 效果 有 所 差异 ， 但 模型 三 
度 的 预测 始终 有 不 同 程度 的 改进 ， 而 且 与 文献 


此 说 明 模型 三 的 预测 更 优 。 
度 P、A、D 的 预测 性 能 不 仅 


综 上 所 述 , 模型 三 对 情感 维 


3、4 所 示 分 别 为 TYUT2.0 数据 库 逢 


模型 对 


P、A、D 预测 的 实验 性 能 对 


y 为 实际 标注 值 ; 


和 为 模型 预测 值 。 表 
0 柏林 语音 库 中 三 类 回归 
比 。 


表 3 TYUT2.0 数据 库 的 实验 性 能 指标 对 比 
Table 3 Comparison of experimental performance indexes in 
TYUT2.0 database 


性 能 指标 


了 A 


D 


tn 
人 
进 


上 楼 


模型 模型 模型 模 玫 


模型 ”模型 


lul 


Person 相 
模型 决定 


MAE 


0.51 0.63 0.68 


0.20 0.26 0.40 0.44 


0.95 0.89 0.71 0.45 


0.47 


0.42 


0.75 0.62 0.74 


0.55 0.35 0.39 0.53 


0.36 0.80 0.76 0.58 


表 4 柏林 语音 库 的 实验 性 能 指标 对 比 


Table 4 Comparison of experimental performance indexes in 


EMO-DB 


性 能 指标 


P A 


D 


模型 模型 模型 模型 模型 


模型 模型 


有 较 大 幅度 的 提高 ， 而 且 还 适 
说 明 聚 类 PSO-LSSVM 模型 对 P、A、D 
对 数据 的 普 适 性 好 。 分 析 其 原因 ，PSO 算法 对 LSSVM 模型 


于 不 同类 型 的 情感 数据 库 ， 
的 预测 能 力 较 强 ， 且 


Kann 


可 归 参 数 的 优化 避免 了 参数 主观 选择 的 盲目 性 ， 使 得 预测 结 
果 有 一 定 程 度 的 改善 ， 情感 聚 类 分 析 通 过 将 情感 进行 初步 聚 
类 ， 降 低 了 不 同情 感 特征 之 间 的 关联 性 对 预测 精度 的 影响 ， 
使 其 对 P、A、D 维度 的 预测 性 能 得 到 改善 ， 因 此 ， 聚 类 
PSO-LSSVM 回归 模型 的 提出 ， 不 仅 可 以 使 回归 过 程 更 加 客 
观 ， 而 且 可 以 通过 降低 特征 间 的 相关 性 ， 使 该 模型 对 P、A、 
D 维度 的 预测 更 为 准确 。 
4 ”结束 语 

为 对 情感 从 维度 进行 情感 客观 量化 ， 本 文 提 出 了 一 种 将 


PSO 优化 LSSVM 与 聚 类 分 析 相 结合 的 预测 方法 ， 即 聚 类 


PSO-LSSVM 回归 模型 , 将 其 
并 与 LSSVM、PSO-LSSVM 两 种 下 


比 。 


P、A、D 的 预测 效果 更 好 ， 这 是 因为 该 区 


用 于 情感 维度 P、A、D 的 预测 ， 
归 模 型 的 预测 结果 进行 对 
实验 结果 表明 ， 聚 类 PSO-LSSVM 回归 模型 对 情感 维度 
归 模 型 融合 了 PSO 


算法 、 情 感 聚 类 分 析 的 优点 ， 即 PSO 算法 对 回归 参数 的 优化 


Person 相 
模型 决定 


系数 
MAE 


0.48 0.63 0.67 


0.16 0.21 0.39 0.33 


0.93 0.98 0.66 0.41 


0.40 


0.96 0.98 


0.92 0.96 


0.36 0.29 0.27 0.17 


结合 表 3、4， 可 以 得 出 : 
a) 包 


| 对 模型 二 与 模型 一 对 P、A、 


D 维度 的 预测 结果 ， 从 


Person 相关 系数 可 以 看 出 , 在 TYUT2.0 数据 库 中 模型 二 的 相 


关系 数 相 比 模型 


减 小 ， 在 柏林 数据 库 中 ， 对 
预测 误差 却 增 大 。 
效果 更 稳定 ， 说 明 


有 


定 程 度 的 提高 ， 从 模型 决定 系数 可 以 


看 出 ,在 两 类 数据 库 中 模型 二 的 决定 系数 比 模型 一 均 有 提高 ， 
说 明 模型 二 相 比 模型 一 对 实验 数据 自 
可 以 看 出 , 在 TYUT2.0 数据 库 中 , 模型 二 的 实验 误差 均 有 所 
| A、D 的 预测 误差 减 小 ， 但 P 的 
此 可 知 ， 模 型 二 在 对 A、D 维度 的 预测 
PSO 算法 对 LSSVM 


预测 效果 有 
b) 外 


定 程 度 的 改善 。 
对 模型 三 与 模型 二 对 了 P、A、 


的 拟 合 效果 好 ;从 MAE 


I 


归 参 数 优化 作用 使 


D 维度 的 预测 结果 ， 从 


Person 相关 系数 可 以 看 出 ， 模 型 三 对 两 类 数据 库 的 预测 相关 


系数 均 比 模型 二 有 
势 更 加 相近 于 标注 值 的 变化 趋势 ; 
模型 三 比 模型 二 对 数据 的 拟 合作 


在 


精度 


区 特 和 


定 提高 ， 说 明 模 型 三 的 预测 结果 变化 趋 
从 模型 决定 系数 可 以 看 出 ， 
用 更 好 ; 从 MAE 可 以 看 出 ， 
类 数据 库 中 模型 三 的 实验 误差 均 比 比 模型 二 的 误差 更 小 。 
比 可 知 ,模型 三 较 模型 二 对 PAD 
证 了 情感 聚 类 分 析 可 以 通过 降 


佳 度 的 预测 性 能 更 优 ， 验 
E 间 的 相关 性 而 提高 预测 


0c) 针对 三 类 模型 对 两 类 数据 库 的 P、A、D 维度 预测 结果 ， 
可 以 看 出 ， 在 TYUT2.0 数据 库 中 ， 


三 类 回归 模型 对 A 维度 


的 预测 效果 优 于 P、D 维度 ， 在 柏林 语音 库 中 ， 三 类 回归 模 


型 对 DD 维 


度 邮 


预测 效果 优 于 P、A 维度 ; 这 与 数据 库 的 建立 


有 效 避 免 了 参数 主观 选择 的 盲目 性 ;情感 聚 类 分 析 对 
PSO-LSSVM 初次 预测 结果 进行 处 理 降低 了 情感 特征 之 间 的 
关联 性 ， 进 而 实现 了 更 ; 
能 够 更 精确 地 展现 出 语音 的 情感 维度 ， 下 一 步 可 以 通过 预测 
语音 样本 在 PAD 


确 、 智 能 的 P、A、D 预测 。 


该 结果 


空间 中 的 坐标 点 ， 根 据 情 感 语音 在 PAD 三 


维 空间 的 分 布 分 析 其 与 基本 情感 在 维度 空间 中 的 关系 ， 深 入 
解析 任 一 语音 情感 状态 的 构成 元 素 以 及 组 成 比例 ， 为 分 析 复 


条 情感 的 组 成 提供 量化 方法 。 
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